{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# <center>Прогноз среднгей стоимости клика в рекламной сети Яндекс.Директ</center>\n",
    "<center> Автор: Польников Эдуард\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "%matplotlib inline\n",
    "\n",
    "\n",
    "from __future__ import (absolute_import, division,\n",
    "                        print_function, unicode_literals)\n",
    "# отключим предупреждения Anaconda\n",
    "import warnings\n",
    "warnings.simplefilter('ignore')\n",
    "\n",
    "# будем отображать графики прямо в jupyter'e\n",
    "%pylab inline\n",
    "\n",
    "\n",
    "import pandas as pd\n",
    "import numpy as np\n",
    "import matplotlib.pyplot as plt\n",
    "import seaborn as sns\n",
    "\n",
    "from sklearn.model_selection import train_test_split, GridSearchCV\n",
    "from sklearn.metrics import mean_squared_error\n",
    "\n",
    "from sklearn.preprocessing import StandardScaler, LabelEncoder, OneHotEncoder, LabelBinarizer\n",
    "from sklearn.model_selection import GridSearchCV\n",
    "from sklearn.linear_model import LinearRegression\n",
    "from sklearn.svm import LinearSVR\n",
    "\n",
    "\n",
    "from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor\n",
    "from sklearn.svm import LinearSVR\n",
    "from sklearn.learning_curve import learning_curve\n",
    "from scipy import stats\n",
    "from scipy.sparse import csr_matrix, coo_matrix, hstack\n",
    "\n",
    "from sklearn.feature_extraction.text import TfidfVectorizer\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "df=pd.read_csv('ya_click.csv')\n",
    "df.head(5)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Часть 1. Описание набора данных и признаков"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Задача взята с реального проекта. Заказчику требуется по показателям рекламы в Яндекс.Директа предсказывать \n",
    "среднюю цену клика. Данные брались из личного кабинета заказчика, была сделана выгрузка за определенный период.\n",
    "Ценность задачи для заказчика в том, что он хочет с помощью прогноза оптимальнее управлять ставками в объявлениях.\n",
    "Настроить этот процесс усправления ставками автоматически. Не смотря на то, что на рынке есть уже готовые решения для этого, заказчик хочет сделать свое инливидуальное решение.\n",
    "\n",
    "**Дата** - дата рекламной кампании содержит число, месяц, год\n",
    "\n",
    "**Кампания** - название рекламной кампании\n",
    "\n",
    "**№ Кампании** - номер рекламной кампании в Яндекс.Директ\n",
    "\n",
    "**№ Объявления** - номер объявления в рекламной системе Яндекс.Директ\n",
    "\n",
    "**Тип объявления** - тип объявления в рекламной системе Яндекс.Директ(бывает текстово-графическим, те содержит текст и картинку, бывает просто графическим, те содержит только одну картинку) \n",
    "\n",
    "**Условие показа** - условия показа рекламного объявления Яндекс.Директ (это условие может создаться самим владельцем сайта, например: брошенные корзины - это условие берется из Яндекс.Метрики. Либо содержит ключевое слово, по которому показываются объявление, например: \"подарки на 8 марта\"\n",
    "\n",
    "**Тип условия показа** - показывает был ли параметр \"условие показа\" выше придуман владельцем сайта, те взять из Яндекс.Метрики или объявление показывалось по ключевому слову (типы: \"условие подбора аудитории\" - придумано владельцем сайта, \"фраза\" - показ по ключевому слову) .\n",
    "\n",
    "***Тип площадки*** - на какой площадке ( рекламной сети Яндекс или на поиске ) было показано объявление.\n",
    "\n",
    "***Внешние сети*** - на каких площадках(сайтах) было показано объявление. В нашем датасете это Яндекс.Сети и Яндекс.Поиск, но в расширенном могут быть и другие сайты.\n",
    "\n",
    "***Регион таргетинга*** - в каком регионе/городе показывалось объявление.  \n",
    "\n",
    "***Позиция***  - где размещалось объвления, бывает VIP размещение, называемое \"спецразмещением\" и \"прочее\", те объявление показывается на плохо видимых местах.\n",
    "\n",
    "***Тип устройства*** - на каком типе устройства показывалось объявление (десктоп, планшет, мобаил)\n",
    "\n",
    "***Показы*** - количество показов объявления\n",
    "\n",
    "***Клики*** - количество кликов по объявлению\n",
    "\n",
    "***Расход (руб.)*** - расходны затраченные на объявление\n",
    "\n",
    "***Ср. цена клика (руб.)*** - средняя цена клика по объявлению (пронозируемая пременная)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "df.columns"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "collapsed": true
   },
   "source": [
    "# Часть 2. Первичный анализ признаков"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "#Посмотрим размер датасета и пропущенные значения.\n",
    "print(\"Размер датасета:\", df.shape)\n",
    "\n",
    "#Всего у нас в датасете 443.009 строк"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "#Посмотрим есть ли пропуски целевой переменной:\n",
    "df['Ср. цена клика (руб.)'].value_counts()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Благодаря отчеты выше поняли, что из 443009 строк, данные осутсвуют в 407672, те \n",
    "в таком количестве строк просто не присутствует наша целевая переменная. \n",
    "Таким образом для анализа у нас остается  всего 443009 - 407672 = 35337 строк.\n",
    "\n",
    "PS Поговорив со специалистами из рекламного отдела, стало понятно \n",
    "почему в стольких позициях целевая переменная отсуствует. Специалисты сказали, что рекламные объявления создаются \n",
    "в автоматическом режиме и многие из них просто не показываются, тк таких запросов пользователи не делают.\n",
    "Например узконаправленный запрос типа \"купить по низкой цене Boshe-XC-003-87 в Марьино на улице Северянин\" скорее всего никогда не покажется. Поэтому в таком большом количестве объявлений показов нет."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "#По причине выше было принято создать новый DataFrame убрал строки, где целевая переменная не присутсвует\n",
    "df = df[df['Ср. цена клика (руб.)']!='-'].copy()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "df.info()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Можно заметить, что в основном у нас категориальные признаки.\n",
    "Но здравый разум подсказывает,что  \"Расход (руб.)\" и \"Ср. цена клика (руб.)\" - числовые пременные.\n",
    "Для простоты дальнейшего анализа преобразуем их."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Преобразуем \"Расходы\" и \"Ср. цену клика\" к вещественным значениям\n",
    "df['Ср. цена клика']=df['Ср. цена клика (руб.)'].apply(lambda x: float(x.replace(',','.')))\n",
    "df['Расход']=df['Расход (руб.)'].apply(lambda x: float(x.replace(',','.')))\n",
    "\n",
    "#Для красоты уберем из названия колонок \"руб\"\n",
    "df = df.drop(['Ср. цена клика (руб.)', 'Расход (руб.)'], axis=1) "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "df.info()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "#Посмотрим на распределение целевого признака\n",
    "sns.set(font_scale=1.3)\n",
    "plt.figure(figsize=(8,5))\n",
    "df['Ср. цена клика'].hist(bins=300);"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Посмотрим, что говорят статистические тесты.\n",
    "print(stats.normaltest(df['Ср. цена клика']))\n",
    "print('skew=',stats.skew(df['Ср. цена клика']))\n",
    "print(stats.skewtest(df['Ср. цена клика']))\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "***Вывод***: Благодаря статистическим тестам, ну это можно увидеть на графике, наши данные не распределены по нормальному распределению.  Также мы видим скошенность распределения."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Пропуски в данных мы изучили выше. При этом хочется заметить, что кроме пропусков в целвой переменной, пропусков в других данных не наблюдалось.\n",
    "\n",
    "Теперь исследуем выбросы"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "sns.violinplot(x='Ср. цена клика', scale='count',data=df);"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "sns.boxplot( x='Ср. цена клика', data=df, orient=\"h\");"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "**Вывод:** Видим, что в данных есть выборсы.\n",
    "Единственно, посоветовавшись со специалистами было принято не убирать эти выбросы, тк группа выбросов, которая скучковалась около 120 являлась важным направлением для кампании. Те это были товары из одной категории."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Часть 3. Первичный визуальный анализ признаков"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "#Построим матрицу корреляции\n",
    "plt.figure(figsize=(8,5))\n",
    "corr_matrix=df.corr()\n",
    "sns.heatmap(corr_matrix,annot=True,fmt = \".2f\",cbar = True,cmap='PuOr',annot_kws={\"size\":10});"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Матрица корреляции для непреобразованных признаков не очень информативна. Тк в нашем датасете в основном категориальные признаки и логичнее было строить эту матрицу корреляции не при первичном анализе данных, а уже после преобразования признаков.\n",
    "\n",
    "Видим, что средняя цена наиболее коррелирует с расходами.\n",
    "При этом с другими признаками корреляция очень мала. \n",
    "\n",
    "Единственно, что можно заметить, что у нас хорошо коррелируют признаки \"Клики\" и \"Расходы\", но это и логично."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Посмотрим на попарное распределение признаков\n",
    "plt.figure(figsize=(12,8))\n",
    "sns_plot = sns.pairplot(df);\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Вприцнипе подтвердились все выводы, которые сделаны выше."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Часть 4. Закономерности, \"инсайты\", особенности данных"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Частично выводы были описаны выше, резюмируем здесь:\n",
    "\n",
    "1) В силу того, что объявления создаются в автоматическом режиме, в бОльшинстве своем перебором различных параметров например перебираются различные комбинации параметров марки холодильника, станций метро где их можно купить и тд... Возникают слишком узкие запросы для объявления, например \"купить по низкой цене Boshe-XC-003-87 в Марьино на улице Северянин\". А такие узкие запросы практически не набираются пользователями. Следовательно у нас много строчек в датасете, где не только нет цлевой переменной, но и показов / кликов объявлений.\n",
    "\n",
    "2) У нас видная небольша кучка данных около \"средней цены\" 120р - это оказалась определенная группа товаров у заказчика, причем важная группа товаров. Поэтому было приянто решение ее не очищать\n",
    "\n",
    "3) Провели статистические тесты и поняли, что наша целевая переменная распределена не по нормальному закону и имееет скошенность.\n",
    "\n",
    "4) Поняли, что матрица коррелиции, если не преобразовывать категориальные ризнаки,а запустить только на первычных признаках не несет никакой серьезной инормативности.\n",
    "\n",
    "5) Также было замечено, что наш датасет основывается только на месяце марте. Если более внимательно изучить датасет, то можно заметить, что в основном он состоит из рекламных объявлений про подарки на 8марта. \n",
    "Изначально, кстати с заказчиком не оговаривалась такая особенность датасета, но это нам на руку в дальнейшем мы сможем выделить интересные признаки из этого.\n",
    "\n",
    "6) Также удалим \"Внешние сети\" тк там одно значение для всех переменных."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Часть 5. Выбор метрики"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Так как мы решаем задачу регрессии, то можно использовать метрику MSE. Впринципе, можно было бы использовать и R2 метрику (коэффициент детерминации), но, вооружившись baseline в виде начального приближения средним, будем использовать MSE. \n",
    "\n",
    "Также самим заказчиком было предложено использовать метрику MSE, поэтому было принято оставить ее."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Часть 6. Выбор модели"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Для данной задачи случайный лес, не очень хорошо подойдет, так как в задаче приличное количество признаков категориального типа. Также мы будем использовать sparse формат, а в этом случаи хорошо заходят линейные модели. Может пригодиться и простая линейная регрессия.\n",
    "\n",
    "Впрочем, ничто не мешает опробовать и другие регрессоры, что мы и сделаем далее.\n",
    "\n",
    "Испробуем несколько моделей, после выберем наилучшую.\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "y = df['Ср. цена клика']\n",
    "X = df.drop(['Ср. цена клика'], axis=1) "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "#Разбиение выборки на train и test, первый 'baseline'\n",
    "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30,shuffle=True,random_state=42)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "#Среднее значение оценки на трейне\n",
    "y_mean=y_train.mean()\n",
    "y_mean_for_test=[float(y_mean) for x in range(len(y_test))]\n",
    "y_mean_for_train=[float(y_mean) for x in range(len(y_train))]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "#Результаты приближения средним на трейне\n",
    "print(mean_squared_error(y_train,y_mean_for_train))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "#Результаты приближения средним на тесте.\n",
    "#Получили baseline\n",
    "baseline_mean=mean_squared_error(y_test,y_mean_for_test)\n",
    "print(mean_squared_error(y_test,y_mean_for_test))"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Мы создали для себя baseline, который будем стараться побить дальше.\n",
    "Вaseline - приближение среднем всех значений."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Часть 7. Предобработка данных"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Так как в нашей задаче много категориальных признаков закодируем их OneHotEncoder.\n",
    "Также есть признаки Расход, который является комбинацией целевого признака и признака \"клики\" - уберем его.\n",
    "Также принято удалить признаки \"Показы\" и \"Клики\". Так как мы хотим предсказывать цену клика еще до показа объявлений, тк в нашем случаи на реальных данных этой колонки просто не будет.\n",
    "\n",
    "\n",
    "PS Из самого df не будем удалять эти колонки, тк далее мы будем делать sparse матрицу, просто в нее не включим колонки выше, которые решили удалить."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "#Создадим новый признак CTR.\n",
    "df['CTR'] = df['Клики']/df['Показы']"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "def OneHotEncoder_Me(df, colums):\n",
    "    \n",
    "    df_new = df.copy()\n",
    "    \n",
    "    le = LabelEncoder()\n",
    "    df_new[colums] = le.fit_transform(df_new[colums])\n",
    "        \n",
    "    enc = OneHotEncoder(sparse=True)\n",
    "    colums_enc = enc.fit_transform(df_new[colums].reshape(-1, 1))\n",
    "    \n",
    "    return colums_enc"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "type_adevrtising = OneHotEncoder_Me(df,'Тип объявления')\n",
    "type_uslovie_pokaza = OneHotEncoder_Me(df,'Условие показа')\n",
    "type_type_uslovie_pokaza = OneHotEncoder_Me(df,'Тип условия показа')\n",
    "type_ploshadki = OneHotEncoder_Me(df,'Тип площадки')\n",
    "type_region_targeting = OneHotEncoder_Me(df,'Регион таргетинга')\n",
    "type_position = OneHotEncoder_Me(df,'Позиция')\n",
    "type_device = OneHotEncoder_Me(df,'Тип устройства')\n",
    "\n",
    "\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "X = csr_matrix(hstack([type_adevrtising,\n",
    "                       type_uslovie_pokaza, \n",
    "                       type_type_uslovie_pokaza,\n",
    "                       type_ploshadki,\n",
    "                       type_region_targeting,\n",
    "                       type_position,\n",
    "                       type_device\n",
    "                    ]))\n",
    "\n",
    "y = df['Ср. цена клика'].values"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "#Разобьем нашу выборку на Train и Test\n",
    "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30,shuffle=True,random_state=42)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Часть 8. Кросс-валидация и настройка гиперпараметров модели"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "#Приступим к выбору модели\n",
    "#Список регрессоров\n",
    "regressors = [LinearRegression(),\n",
    "               RandomForestRegressor(random_state=42), \n",
    "               LinearSVR(random_state=42)]\n",
    "regressor_name = ['LinearRegression',\n",
    "                    'RandomForestRegressor', \n",
    "                    'LinearSVR']"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "#Параметры к регрессорам\n",
    "scores = []\n",
    "fits = []\n",
    "linear_params = {'normalize': (True, False)}\n",
    "forest_params = {'n_estimators': [100], \n",
    "                 'max_depth': list(range(3, 12, 4)), \n",
    "                 #'min_samples_leaf': list(range(10, 31, 10))\n",
    "                }\n",
    "\n",
    "svm_params = {'loss' : ('epsilon_insensitive', 'squared_epsilon_insensitive'), 'C': (0.1,0.25,0.5, 1, 2)}\n",
    "params = [linear_params, forest_params, svm_params]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "#Перебираем параметры регрессоров в поисках лучшего (на 5 фолдах)\n",
    "np.random.seed(42)\n",
    "for i, each_regressor in enumerate(regressors):\n",
    "    reg = each_regressor\n",
    "    reg_params = params[i]\n",
    "    grid = GridSearchCV(reg, reg_params, \n",
    "                        cv=5,\n",
    "                        scoring='neg_mean_squared_error',\n",
    "                        n_jobs=-1)\n",
    "    grid.fit(X_train, y_train)\n",
    "    fits.append(grid.best_params_)\n",
    "    reg_best_score = grid.best_score_\n",
    "    scores.append(reg_best_score)\n",
    "    print(regressor_name[i], -reg_best_score, \"\\n\", grid.best_params_, \"\\n\")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "**Вывод:** Из моделей лучше всего сработал SVM.  Лучшие его параметры можно посмотреть выше."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Часть 9. Создание новых признаков и описание этого процесса "
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Создадим новые признаки: \n",
    "\n",
    "1) поработаем с датой (выделим, день, месяц и выходные)\n",
    "\n",
    "2) создадим TF-IDF на признаке \"условие показа\" объявления\n",
    "\n",
    "**Инсайт:** Также воспользуемся инсайтом, который заметили при первичном анализе данных. Напомню, что в нашем датасете все данные взяты только за март, соотвественно хорошим признаком будет выделить около празничные дни 8марта (те 7,8 марта)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "df['DateTime'] = df['Дата'].apply(pd.to_datetime)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "df['weekend'] =  df['DateTime'].apply(lambda x: 0 if x.weekday() < 5 else 1 )\n",
    "df['marсh_7_8'] = df['DateTime'].apply(lambda x: 1 if x.day in[7,8] else 0 )"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "tfd=TfidfVectorizer(ngram_range=(1,2))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "uslovie_pokaza_tfd=tfd.fit_transform(df['Условие показа'])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "weekend = df['weekend'].reshape(-1,1)\n",
    "marxh_7_8 = df['marсh_7_8'].reshape(-1,1)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "X = csr_matrix(hstack([type_adevrtising,\n",
    "                       type_uslovie_pokaza, \n",
    "                       type_type_uslovie_pokaza,\n",
    "                       type_ploshadki,\n",
    "                       type_region_targeting,\n",
    "                       type_position,\n",
    "                       type_device,\n",
    "                       uslovie_pokaza_tfd,\n",
    "                       weekend,\n",
    "                       marxh_7_8\n",
    "                    ]))\n",
    "\n",
    "y = df['Ср. цена клика'].values"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Снова разобьем на Train и Test , но уже с новыми призаками\n",
    "X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30,shuffle=True,random_state=42)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "#Сделаем опять перебор по всем моедлям с теми же параметрами, но новыми признаками\n",
    "\n",
    "np.random.seed(42)\n",
    "for i, each_regressor in enumerate(regressors):\n",
    "    reg = each_regressor\n",
    "    reg_params = params[i]\n",
    "    grid = GridSearchCV(reg, reg_params, \n",
    "                        cv=5,\n",
    "                        scoring='neg_mean_squared_error',\n",
    "                        n_jobs=-1)\n",
    "    grid.fit(X_train, y_train)\n",
    "    fits.append(grid.best_params_)\n",
    "    reg_best_score = grid.best_score_\n",
    "    scores.append(reg_best_score)\n",
    "    print(regressor_name[i], -reg_best_score, \"\\n\", grid.best_params_, \"\\n\")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "**Вывод:** Видим, что наши признаки улучшили метрику. \n",
    "Незначительно, но улучишили нашу метрику, причем на всех моделях.\n",
    "Особенно улучшился RandomForest\n",
    "\n",
    "Предыдущие значения:\n",
    "\n",
    "LinearRegression 31.7588321129922 \n",
    " {'normalize': False} \n",
    "\n",
    "RandomForestRegressor 42.5449357017418 \n",
    " {'max_depth': 11, 'n_estimators': 100} \n",
    "\n",
    "LinearSVR 30.983540220587678 \n",
    " {'C': 0.5, 'loss': 'squared_epsilon_insensitive'} "
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Часть 10. Построение кривых валидации и обучения (4 балла)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "#Лучше всего показал себя SVM \n",
    "\n",
    "svm = LinearSVR(C=0.5, loss='squared_epsilon_insensitive')\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "def plot_with_std(x, data, **kwargs):\n",
    "        mu, std = data.mean(1), data.std(1)\n",
    "        lines = plt.plot(x, mu, '-', **kwargs)\n",
    "        plt.fill_between(x, mu - std, mu + std, edgecolor='none',\n",
    "                         facecolor=lines[0].get_color(), alpha=0.2)\n",
    "        \n",
    "def plot_learning_curve(reg, X, y, scoring, cv=5):\n",
    " \n",
    "    train_sizes = np.linspace(0.05, 1, 20)\n",
    "    n_train, val_train, val_test = learning_curve(reg,\n",
    "                                                  X, y, train_sizes, cv=cv,\n",
    "                                                  scoring=scoring)\n",
    "    plot_with_std(n_train, val_train, label='training scores', c='green')\n",
    "    plot_with_std(n_train, val_test, label='validation scores', c='red')\n",
    "    plt.xlabel('Training Set Size'); plt.ylabel(scoring)\n",
    "    plt.legend()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "#Это график MSE со знаком минус, поэтому функции возрастают.\n",
    "plot_learning_curve(svm,\n",
    "                    X_train, y_train, scoring='neg_mean_squared_error', cv=5)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Часть 11. Прогноз для тестовой или отложенной выборке"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Обучим нащшу модель\n",
    "svm.fit(X_train, y_train)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "predict = svm.predict(X_test)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "mean_squared_error(y_test, predict)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "print(mean_squared_error(y_test, predict),'vs baseline:',baseline_mean)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    " ### Вывод: ### \n",
    " Результаты сравнимы с результатами на кроссвалидации.\n",
    " \n",
    " Также хочется заметить, что мы существенно обогнали baseline"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Часть 12. Выводы"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Нам удалось существенно улучшить baseline благодаря добавлению новых признаков, а также использованию нескольких моделей, из которых мы потом выбрали наилучшую.\n",
    "\n",
    "Изначально были предположения из-за сильно разряженного формата, что RandomForest не сработает, но при добавлении новых признаков и подборе гиперпараметров, он показал себе намного лучше, чем предполагалось.\n",
    "\n",
    "Хотя самым лучшим оказался SVM."
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.6.3"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}
